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【 目的 】 降 低 文献 -作者 二 分 网 络 在 投影 为 合 著 网 络 过 程 中 的 信息 丢失 影响 , 形成 适应 特定 二 分 网 络 的 合 


著 关 系 预测 指标 和 方法 ,提高 预测 准确 率 和 结果 可 解释 性 。[ 方法 】 首 先 构建 文献 -作者 二 分 网 络 及 其 投影 合 著 
网 络 ; 接着 抽取 二 分 网 络 中 的 二 阶 路 径 和 三 阶 路 径 表示 作 者 间 的 关联 关系 ; 最 后 利用 逻辑 回归 方法 学 习 不 同 路 
径 对 于 合 著 关系 预测 的 贡献 ， 由 此 形成 文献 -作者 二 分 网 络 中 基于 路 径 组 合 的 合 著 关 系 预测 指标 。[ 结果 】 在 图 
书 情报 领域 的 实验 证 实 , 文献 -作者 二 分 网 络 在 投影 为 合 车 网 络 过 程 中 存在 较 大 的 信息 丢失 , 并 以 合 著 关系 预测 
准确 率 变化 进行 定量 计算 ; 人 逻辑 回归 方法 适合 学 习 不 同 路 径 对 于 合 著 关系 预测 的 贡献 ， 由 此 形成 的 路 径 组 合 指 


标准 确 率 远 远 高 出 其 他 指标 , 并 且 预 测 结果 更 易 解释 。[ 
性 还 需 在 其 他 领域 进行 验证 。【 结论 ] 合 著 关系 预测 应 直接 在 文献 -作者 二 分 网 络 上 进行 ,以 降低 投影 过 程 中 的 


局 限 】 其 他 的 多 阶 路 径 尚 未 引入 到 该 模型 中 , 方法 通用 


信息 丢失 影响 ; 文献 -作者 二 分 网 络 上 的 路 径 组 合 指标 是 合 著 关 系 预 测 的 最 优 指 标 ; 该 方法 可 扩展 应 用 到 其 他 类 


型 的 二 分 网 络 中 ,如 专利 -发 明 人 二 分 网 络 。 
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合 著 网 络 “ 合 著 关 系 预测 


1 引 言 


多 学 科 交 叉 融 会 的 大 背景 以 及 科研 人 员 研 究 方向 
的 专业 化 和 精细 化 使 得 越 来 越 多 的 科学 研究 由 个 人 独 
立 完成 转变 为 科研 团队 协作 完成 ,从 而 提高 科研 水 平 
和 科研 效率 。 这 就 使 得 适应 时 代 要 求 和 特定 主题 的 科 
研 团队 组 建 研究 逐渐 受到 重视 并 引起 了 广泛 关注 。 合 
著 关 系 作 为 科研 合作 的 重要 体现 , 也 是 发 现 科研 合作 
的 重要 途径 总 因此 , 作者 合 著 可 能 性 可 以 在 一 定 程 
度 上 代表 作者 的 科研 合作 可 能 性 ,进而 为 科研 团队 人 
员 选 择 和 搭配 提供 建议 和 参考 中 

当前 , 合 著 关系 预测 主要 在 合 著 网 络 中 进行 , 它 


以 作者 为 节点 ,以 合 著 关系 为 边 ， 由 于 其 节点 和 连 边 
均 为 单一 类 型 ， 因 此 属于 单 分 网 络 的 一 种 表现 形式 。 
合 著 网 络 中 的 合 著 关系 预测 就 是 尚未 产生 连 边 的 节点 
对 之 间 产 生 连 边 的 可 能 性 预测 申 ,， 应 用 和 改进 复杂 网 
络 中 节点 间 的 多 种 相关 性 计算 指标 , 可 以 计算 当前 尚 
未 产生 合 著 关系 的 作者 对 的 相关 程度 ,并 以 相关 程度 
表示 作者 对 在 未 来 产生 合 著 的 可 能 性 外 。 作 者 对 的 相 
关 性 计算 指标 可 以 分 为 共同 邻居 及 其 改进 指标 、 到 达 
路 径 指 标 和 随机 游 走 指标 外 ,并 已 在 多 个 领域 中 进行 
实验 以 比较 不 同 指 标的 优 劣 ， 寻找 合 著 关 系 预测 的 最 
优 指标 上 7"。 而 合 著 网 络 是 由 文献 -作者 二 分 网 络 投影 
形成 , 投影 过 程 中 文献 信息 的 丢失 使 得 合 著 关 系 具 体 
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发 生 在 哪些 文献 上 难以 跟踪 , 并 可 能 导致 合 著 关系 预 
测 的 准确 率 降低 因此 , 需要 计算 同一 指标 在 二 分 
网 络 及 其 投影 合 著 网 络 上 的 准确 率 变化 , 量化 表示 信 
息 丢 失 及 其 对 合 著 关 系 预测 的 影响 。 这 使 得 直接 在 二 
分 网 络 上 对 合 著 关 系 进行 预测 成 为 一 种 新 思路 。 二 分 
网 络 由 两 种 类 型 的 节点 构成 , 并 且 边 只 在 不 同类 型 的 
节点 间 存 在 , 由 此 形成 了 相应 的 中 心性 指标 、 集 聚 系 
数 、 社 团结 构 和 演化 模型 中 。 二 分 网 络 上 的 关系 预测 
主要 是 对 单 分 网 络 上 的 指标 在 二 分 网 络 上 进行 映射 ， 
形成 了 共同 邻居 、 局 部 路 径 等 指标 在 二 分 网 络 上 的 对 
应 表示 0" 并 在 商品 -消费 者 、RNA- 和 蛋白 质 和 图 书 - 
借阅 者 等 二 分 网 络 上 应 用 ,取得 了 相对 较 好 的 效果 。 
然而 , 文献 -作者 二 分 网 络 上 作者 间 的 关联 关系 相对 
于 合 闭 网 络 更 加 多 样 和 复杂 ,如 何 抽取 和 表示 多 种 关 
联 关 系 并 明晰 它们 对 于 合 著 关 系 预测 的 贡献 还 需 深入 
研究 , 如 何 融 合 多 种 关联 关系 形成 合 著 关系 预测 的 最 
佳 指标 还 需 进一步 加 强 。 

本 文 直接 在 文献 -作者 二 分 网 络 中 抽取 多 种 路 径 
表示 作者 间 的 关联 关系 ,并 通过 逻辑 回归 的 机 需 学 习 
方法 学 习 不 同 路 径 对 于 合 著 关 系 预 测 的 贡献 ， 以 学 习 
到 的 权重 系数 组 合 多 种 路 径 形 成 二 分 网 络 中 基于 多 路 
径 组 合 的 合 车 关系 预测 指标 ; 在 此 基础 上 ,对 文献 - 作 
者 二 分 网 络 及 其 投影 合 著 网 络 的 相关 预测 指标 进行 比 
较 和 分 析 , 并 通过 准确 率 变化 定量 计算 投影 过 程 中 的 
信息 丢失 。 


2 文献 -作者 二 分 网 络 中 的 合 著 关系 预测 
模型 


文献 -作者 二 分 网 络 中 合 著 关 系 预测 模型 包括 三 
个 部 分 ， 即 : 二 分 网 络 及 其 投影 合 著 网 络 的 构建 、 作 者 
关联 关系 在 二 分 网 络 中 的 路 径 表示 及 其 组 合 、 合 著 关 
系 预 测 指 标的 评测 。 首 先 , 设计 二 分 网 络 投影 为 合 著 
网 络 的 方案 , 使 得 二 分 网 络 和 投影 网 络 在 合 车 关系 预 
测 上 有 具有 高 一 致 性 ,进而 可 以 进行 公平 比较 ; 接着 在 
二 分 网 络 上 抽取 多 种 路 径 表 示 作 者 间 的 关联 关系 , 作 
为 合 著 关 系 发 生 的 驱动 因素 ,并 使 用 机 顺 学 习 的 方法 
构建 多 路 径 组 合 指标 ; 最 后 使 用 链 路 预测 的 方法 对 二 
分 网 络 上 的 预测 指标 进行 评测 。 
2.1 文献 -作者 二 分 网 络 及 其 投影 网 络 构建 

二 分 网 络 在 投影 为 合 著 网 络 时 存在 信息 丢失 


A 
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为 了 量化 信息 丢失 , 需要 使 得 二 分 网 络 和 投影 网 络 在 
进行 合 著 关系 预测 指标 比较 时 具有 高 一 臻 性。 如 图 1 
所 示 , 图 1 (a) 表 示 文 献 -作者 二 分 网 络 , 而 图 1 (b) 为 投 
影 形 成 的 对 应 合 著 网 络 ， 其 中 P; 为 文献 , Ai 为 作者 。 


[本 | |] (| 一 一人) 
CC 
() CQ) () () 
(a) (b) 
图 1 二 分 网 络 及 其 投影 的 合 著 网 络 


本 文 使 用 如 下 方法 构建 文献 -作者 二 分 网 络 及 其 
对 应 的 投影 网 络 ， 并 形成 相应 的 训练 集 和 测试 集 ,为 
模型 训练 和 结果 评价 提供 数据 基础 。 首 先 在 二 分 网 络 
中 抽取 所 有 的 合 车 关系 ,并 使 用 “作者 -文献 -作者 ” 表 
示 ， 如 在 图 1(a) 的 二 分 网 络 中 ,所 有 的 合 著 关系 表示 
为 (Al A3) : [AIPIAj, AiP>A3], (A1, A;) : [AiP?A], (A，， 
Ai) : [A2P2A3] 和 (As, A4) : [AP;A4]。 接 着 , 依据 10 折 
交叉 验证 (10-Fold Cross Validation) 方 法 得 到 训练 集 和 
测试 集 ”"， 即 : 将 数据 集 等 分 成 10 组 , 每 组 中 的 合 
著 关 系 均 从 原 数 据 集中 随机 抽取 并 且 不 重复 , 依次 将 
每 组 数据 作为 一 次 测试 集 , 余下 的 9 组 数据 共同 作为 
训练 集 ， 由 此 得 到 10 组 训练 集 和 测试 集 。 最 后 , 使 用 
合 著 关系 对 应 的 “作者 -文献 -作者 ”关系 形成 对 应 二 分 
网 络 的 训练 集 和 测试 集 ， 如 图 1 中 , 假设 以 (A1，A;)、 
(Ai, A) 和 (A> A;) 作 为 训练 集 ， 以 (A,, As) 表 示 测 试 集 ， 
那么 在 二 分 网 络 中 则 是 以 [A1P1A3, AiPsA3]、[AiP2Az] 
和 [A2P2A3] 为 训练 集 ， 以 [A2P3A4] 为 测试 集 。 

这 种 训练 集 和 测试 集 分 割 方法 确保 了 二 分 网 络 与 
投影 网 络 在 进行 合 著 关系 预测 指标 比较 时 具有 高 一 致 
性 , 然而 ,由 于 投影 网 络 没有 存储 文献 信息 , 使 得 两 
种 网 络 仍 存 在 一 定 的 不 一 致 性 , 这 种 不 一 致 性 正 验证 
了 投影 过 程 中 信息 丢失 的 存在 ,并 使 得 同一 指标 在 二 
分 网 络 和 合 著 网 络 上 的 计算 结果 不 同 。 举 例 来 说 ,如 
果 选 择 [(A A;), (A2, As), (Az, Ad)] 作 为 训练 集 , [(Ai, A2)] 
作为 测试 集 , 那么 在 二 分 网 络 训练 集中 对 应 的 “作者 - 
文献 -作者 ”关系 为 [A1P1A3, AiPA3,，A2P2A3，A2P3A4]， 
而 该 训练 集中 的 关系 [AP?A:, A2P2A3] 会 直接 导致 关系 
AiP2A; 发 生 , 并 不 需要 进行 任何 预测 。 

2.2 ”基于 逻辑 回归 的 多 路 径 组 合 指标 构建 
二 分 网 络 构建 后 ,需要 从 中 抽取 作者 间 的 多 种 到 
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达 路 径 表示 作者 间 的 关联 关系 , 并 基于 逻辑 回归 的 机 
器 学 习 方 法 学 习 不 同 路 径 对 于 合 著 关系 预测 的 影响 和 
贡献 ， 由 此 形成 文献 -作者 二 分 网 络 中 基于 路 径 组 合 
的 合 著 关系 预测 指标 。 

(1) 二 分 网 络 中 的 路 径 表 示 和 提取 

文献 -作者 二 分 网 络 中 , 作者 间 的 关联 关系 是 通 
过 文献 形成 的 如 作者 间 的 合 著 关系 可 以 通过 “作者 - 
文献 -作者 "表示; 两 个 作者 的 共同 邻居 数目 可 以 通过 
“作者 -文献 -作者 -文献 -作者 "(APAPA) 的 路 径 数 目 表 
示 , 单 以 作者 来 说 ,两 个 作者 间 的 到 达 路 径 长 度 为 2， 
并 与 合 车 网 络 中 作者 间 的 共同 邻居 相对 应 ,因此 称 该 
种 关联 关系 为 二 阶 路 径 ; 两 个 作者 的 合 著者 产生 的 合 
著 关 系 可 以 通过 “作者 -文献 -作者 -文献 -作者 -文献 
作者 ”(APAPAPA) 路 径 表 示 , 单 以 作者 来 说 ,两 个 作者 
间 的 到 达 路 径 长 度 为 3， 因 此 称 该 种 关联 关系 为 三 阶 
路 径 。 在 图 1 中 , AiPIA3s 表示 作者 A 和 A3 具有 合 著 关 


发 生 , 发 生 即 为 1, 没有 发 生 即 为 0。 对 于 训练 集中 的 
每 一 对 合 著 关 系 (i, j)， Xx 为 二 维 向 量 ,用 来 存储 二 阶 
路 径 和 三 阶 路 径 的 数目 , yx 则 表示 合 著 关系 是 否 发 生 。 
举例 来 说 ， 当 作者 i 到 j 的 二 阶 路 径 数 日 为 2、 三 阶 路 
径 数 目 为 6 时 , 合 著 关 系 发 生 , 那么 Xe=[2, 12], ye=1。 
逻辑 回归 方法 则 使 用 10 折 交 叉 验 证 中 的 训练 集 作 为 
正 例 (Posive), 并 随机 抽取 同样 数量 的 负 例 (Negative) 
一 起 作为 训练 集 ， 进 而 应 用 Python 语言 的 scikit-learn 
机 器 学 习 工 具 包 实现 逻 辑 回 归 ， 对 应 的 类 为 “sklearn. 
linear model.LogisticRegression”。 通 过 输入 训练 集中 
的 多 个 Xe 和 ye 得 到 二 级 路 径 和 三 阶 路 径 的 权重 , 进 
而 形成 多 路 径 组 合 指标 , 并 以 此 计算 尚未 产生 合 著 关 
系 的 作者 对 之 间 合 著 的 概率 , 对 合 著 关系 进行 预测 。 
2.3 ”基于 链 路 预测 的 指标 评测 

链 路 预测 经 党 被 用 来 定量 评测 复杂 网 络 上 的 相关 
性 指标 优 劣 中 ,而 文献 -作者 二 分 网 络 及 其 投影 网 络 均 


系 ; AiP,A2P3A4 表示 作者 A; 是 作者 Al 和 A4 的 共同 邻 
届 , 由 于 Al 和 A4 间 只 有 一 条 类 似 路 径 , 因此 Al 和 A4 
的 二 阶 路 径 数目 为 1; A3P1A1P;A2P3A4 表示 作者 As 的 
合 著者 Al 与 A4 的 合 著者 A; 具有 合 著 关 系 , 由 于 As 
和 As 间 只 有 一 条 类 似 路 径 , 因此 As 和 As 的 三 阶 路 径 
数目 为 1。 

本 文中 以 文献 -作者 二 分 网 络 中 的 二 阶 路 径 和 三 
阶 路 径 表示 作者 间 的 关联 关系 , 并 且 由 二 阶 路 径 和 三 
阶 路 径 可 以 扩展 形成 四 阶 路 径 和 更 高 阶 路 径 。 

(2) 基于 逻辑 回归 的 多 路 径 组 合 方式 

二 分 网 络 中 的 多 种 路 径 均 可 能 对 合 著 关 系 预测 产 
生 影响 ,而 每 种 路 径 的 贡献 可 能 并 不 相同 , 因此 ， 需 
要 使 用 机 器 学 习 的 方法 在 训练 集中 学 习 每 种 路 径 的 权 
重 系数 表示 该 路 径 对 于 合 著 关 系 预 测 的 贡献 ， 进 而 形 
成 基于 多 路 径 组 合 的 合 著 关 系 预 测 指标 。 

逻辑 回归 (Logistic Regression) 是 机 器 学 习 中 的 一 
种 分 类 模型 ,在 数据 挖掘、 疾病 自动 诊断 和 经 济 预 测 
等 领域 均 有 较 多 应 用 中 。 催 辑 回 归 常 用 来 解决 二 分 类 
问题 , 它 基 于 一 个 或 多 个 自 变 量 ( 即 二 分 类 的 影响 因 
素 ) 来 计算 该 数据 属于 二 分 类 中 特定 类 别 的 概率 , 通过 
在 训练 集中 学 习 到 的 不 同 影响 因素 的 权重 系数 , 便 可 
以 预测 新 数据 的 所 属 分 类 并 计算 属于 特定 类 别 的 概率 。 

应 用 到 多 路 径 组 合 指标 的 构建 时 ， 自 变量 是 二 阶 
路 径 数 目 和 三 阶 路 径 数目 , 而 因 变 量 是 合 著 关 系 是 否 
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届 于 复杂 网 络 , 并 且 合 著 关 系 预 测 指标 也 是 相关 性 指 
标的 一 种 , 因此 , 可 以 应 用 链 路 预测 的 理论 和 方法 对 
多 种 预测 指标 进行 评测 。 定义 G=(V, BE) 为 文献 -作者 二 
分 网 络 , 其 中 V 为 作者 集合 , E 为 “作者 -文献 -作者 ” 表 
示 的 合 著 关 系 集合 , 该 网 络 中 的 合 著 关 系 全 集 U 的 个 
数 为 Nx(N-1)/2。 给 定 一 种 合 著 关 系 预测 指标 , 计算 尚 
未 产生 合 著 关系 的 作者 对 (x, y)e(U-E) 的 合 著 可 能 性 ， 
并 按照 可 能 性 从 大 到 小 排序 ， 排 在 最 前 面 的 作者 对 将 
来 合 著 的 可 能 性 最 大 。 

为 了 评价 合 著 关 系 预 测 指标 , 将 合 车 关系 集合 E 
通过 10 折 交叉 验证 方式 分 为 10 组 训练 集 E' 和 测试 集 
E*, 在 训练 集 上 利用 合 著 关系 预测 指标 计算 作者 对 的 
合 著 可 能 性 ， 并 在 测试 集 上 对 计算 结果 的 准确 性 进行 
评价 。 链 路 预测 中 衡量 准确 性 的 指标 主要 包括 
AUC(Area Under Roc Curve) 和 Precision( 准 确 率 )"， 其 
值 均 为 10 次 计算 的 平均 结果 。AUC 和 准确 率 对 指标 
精确 度 的 衡量 侧重 点 不 同 。 AUC 从 整体 上 衡量 指标 的 
精确 度 , AUC 值 的 区 分 度 较 低 ， 即 多 个 指标 的 AUC 值 
差异 较 小 , 使 得 预测 准确 率 较 低 的 指标 其 AUC 值 可 
能 仍然 较 大 ; Precision 则 衡量 排 在 前 L 位 的 合 著 关系 
是 否 预 测 准 确 , L 的 取 值 可 以 自由 确定 , 本 文中 使 用 
R-Precision 对 合 著 关 系 预测 准确 率 进行 评价 , 既 考 虑 
准确 性 , 同时 考虑 合 著 关系 预测 结果 的 排序 ， 此 时 工 
为 测试 集中 的 合 著 关 系数 目 。 


3 ”实证 分 析 


以 图 书 情报 领域 的 数据 为 例 , 构建 文献 -作者 二 
分 网 络 和 投影 形成 的 对 应 合 著 网 络 , 在 二 分 网 络 和 合 
著 网 络 上 应 用 合 著 关系 预测 指标 ,计算 预测 准确 率 和 
AUC 值 ， 从 而 发 现 文献 -作者 二 分 网 络 在 投影 为 合 著 
网 络 时 存在 多 少 信息 丢失 、 计 算 二 分 网 络 中 不 同 路 径 
对 于 合 著 关系 预测 的 贡献 、 验 证 基于 路 径 组 合 的 指标 
和 方法 有 效 性 。 
3.1 数据 说 明 

从 WoS(Web of Science) 上 下 载 被 SCIE (Science 
Citation Index Expanded) 收 录 的 学 科 分 类 为 图 书 情报 
(Information Science 区 Library Science) 的 相关 数据 ， 
对 应 时 间 段 为 2005 年 到 2009 年 。 同 时 ， 去 除了 
Scientist 期 刊 的 相关 数据 , 原因 在 于 该 期 刊 包含 的 论 
文 数 量 众多 并 且 论 文 长 度 很 短 , 并 且 该 期 刊 同时 属于 
其 他 多 个 学 科 分 类 。 如 果 包 含 该 期 刊 的 数据 , 会 导致 
频次 较 高 的 作者 均 为 该 期 刊 上 发 表 论文 的 作者 , 使 得 
实验 结果 的 可 信 度 降低 。 所 用 数据 集 对 应 的 检索 表达 
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路 径 指标 分 别 表示 合 著 网 络 和 对 应 二 分 网 络 中 的 共同 
邻居 数目 ,在 合 著 网 络 中 , CN 指标 的 正确 率 和 AUC 
分 别 为 27.1% 和 85.4%， 而 在 文献 -作者 二 分 网 络 中 ， 
二 阶 路 径 指标 的 正确 率 和 AUC 分 别 为 48.3% 和 
85.5%。 其 中 , 二 分 网 络 的 正确 率 较 合 著 网 络 高 出 了 
21.2%， 提 高 了 78.2%, 定量 表示 了 文献 -作者 二 分 网 
络 在 投影 为 合 著 网 络 过程 中 的 信息 丢失 ; 与 此 同时 ， 
AUC 作为 一 个 宏观 评价 指标 ， 几 乎 没有 变化 , 区 分 度 
很 小 。 以 上 结果 表明 , 合 著 关 系 预 测 的 准确 率 降 低 与 
二 分 网 络 投影 为 合 著 网 络 的 信息 丢失 密切 相关 ,并 可 
通过 准确 率 变化 定量 表示 信息 丢失 的 多 少 , 为 投影 过 
程 中 的 信息 丢失 定量 计算 提供 了 一 种 新 思路 。 

影 形成 的 合 著 网 络 无 法 体现 文献 信息 导致 合 著 
关系 预测 的 准确 率 降 低 ， 同 时 使 得 合 车 关系 预测 结 
的 解释 难度 加 大 。 如 在 第 一 次 实验 成 功 预 测 的 前 10 
对 合 著 关 系 中 , CN 和 二 阶 路 径 均 成 功 预测 Bates DW 
和 Jenter CA 会 产生 合 著 关系 , CN 的 数 上 日 为 6, 而 二 阶 
路 径 (APAPA) 数 目 为 14 且 都 表示 共同 邻居 ; 另 一 方面 ， 


EI 


式 为 : 
(WC = Information Science & Library Science) 
AND LANGUAGE: (English) 
AND DOCUMENT TYPES: (Article) 
Indexes=SCI-EXPANDED 
Timespan=2005-2009 
Refined by: [excluding] SOURCE TITLES: (Scientist) 


数据 预 处 理 过 程 主要 是 删除 匿名 作者 信息 ， 即 删 
除 掉 作 者 名 为 “"[anonymous]” 的 相关 作者 。 在 此 基础 上 ， 
选取 出 现 频次 大 于 或 等 于 3 的 作者 及 其 对 应 文献 构建 
文献 -作者 二 分 网 络 , 并 投影 形成 对 应 的 合 著 网 络 , 相 
关 数 据说 明 如 表 1 所 示 。 其 中 , 孤立 作者 数目 是 指 在 
选取 出 的 高 频 作者 中 没有 产生 合作 的 作者 数目 ,训练 
集中 的 合 著 关系 数 占 总 数 的 90%, 测试 集中 的 合 著 关 
系数 占 10%。 


表 1 数据 说 明 
时 间 眉 作者 孤立 作者 合 著 关 训练 集中 测试 集中 
数目 数目” 系 总 数 合 著 关 系数 ” 合 著 关系 数 
2005-2009 911 159 1 183 1 064 119 


3.2 ”文献 -作者 二 分 网 络 投影 过 程 中 的 信息 丢失 
文献 -作者 二 分 网 络 在 投影 为 合 著 网 络 的 过 程 中 ， 
存在 较 大 的 信息 丢失 。CN(Common Neighbor) 和 二 阶 


在 前 119 对 (与 测试 集中 的 数目 相等 ) 合 车 关系 中 ,二 
阶 路 径 成 功 预 测 Markpin T 和 Sombatsompop N 产 生 合 
著 关 系 , 而 CN 没有 预测 出 ,此 时 CN 的 数目 为 2、 二 
阶 路 径 (APAPA) 数 目 为 13。 这 些 都 说 明 部 分 共同 邻居 
关系 随 着 投影 过 程 也 出 现 了 丢失 ,最 终 导致 了 投影 网 
络 中 合 著 关 系 预 测 的 准确 率 降低 。 另 一 方面 , 文献 - 作 
者 二 分 网 络 更 易于 跟踪 作者 对 在 哪些 文献 上 进行 合 
著 , 进而 发 现 合 著 关系 发 生 的 原因 和 动机 ,更 适合 对 
合 著 关系 预测 进行 解释 和 说 明 。 

综 上 , 文献 -作者 二 分 网 络 在 投影 为 合 著 网 络 过 
程 中 存在 较 大 的 信息 丢失 , 使 得 合 著 关系 预测 准确 率 
大 幅 降 低 ， 因 此 , 合 著 关系 预测 应 直接 在 文献 -作者 二 
分 网 络 上 进行 ， 以 降低 在 投影 为 合 著 网 络 过 程 中 的 信 
息 丢 失 影 响 , 同时 增加 结果 的 可 解释 性 。 
3.3 ”路 径 组 合 指标 与 其 他 指标 的 结果 比较 分 析 

本 文选 取 二 分 网 络 上 的 三 种 路 径 指 标 进 行 比较 分 
析 , 分 别 是 : 与 共同 邻居 (Common Neighbor) 对 应 的 二 
阶 路 径 指标 (二 阶 路 径 的 数目 ); 与 局 部 路 径 指标 (Local 
Path) 对 应 的 路 径 组 合 指标 , 均 表示 二 阶 路 径 和 三 阶 路 
径 的 组 合 , 而 局 部 路 径 指 标 1 表示 三 阶 路 径 的 权重 固 
定 为 0.1, 局 部 路 径 指标 2 表示 三 阶 路 径 的 权重 固定 为 
0.01; 以 及 表示 三 阶 路 径 数 目的 三 阶 路 径 指标 。 为 了 对 
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合 著 关 系 预测 指标 进行 公平 全 面 比较 ,本 文选 取 合 著 
网 络 中 的 共同 邻居 和 资源 分 配 指标 作为 共同 邻居 及 其 
改进 指标 的 代表 、 局 部 路 径 指标 和 全 路 径 指 标 作为 路 
径 组 合 指标 的 代表 、SimRank 作为 随机 游 走 指标 的 代 
表 , 这 些 指 标 在 各 自 类 别 中 均 具 有 优异 表现 中。 通过 对 
二 分 网 络 上 的 指标 进行 比较 分 析 , 发 现 不 同 路 径 对 于 
合 著 关 系 预 测 的 贡献 大 小 和 适合 合 著 关系 预测 的 最 佳 
指标 ; 通过 比较 二 分 网 络 上 的 指标 与 合 著 网 络 上 的 指 
标 ， 发 现 路 径 权 重 对 于 合 著 关 系 预 测 的 重要 影响 ， 以 
影响 合 著 关系 预测 的 最 重要 影响 因素 。 文 献 -作者 二 
分 网 络 和 对 应 合 著 网 络 上 的 指标 准确 率 和 AUC 值 如 
表 2 和 表 3 所 示 : 
表 2 合 著 网 络 中 合 著 关系 预测 指标 的 准确 率 和 AUC 值 


ns 指标 准确 率 |AUC (%) 
C3 共同 邻居 27.1|85.4 

CN 全 路 径 指标 25.5|86.5 

人 局 部 路 径 指标 1 20.8|86.5 

Dm 局 部 路 径 指标 2 25.5|86.5 

资源 分 配 指标 30.2|85.4 

I~ SimRank 12.9|85.7 

CQ 表 3 ”文献 -作者 二 分 网 络 中 合 著 关 系 预测 指标 的 
E 准确 率 和 AUC 值 

ls 二 分 网 络 路 径 指标 准确 率 |AUC (%) 
a 二 阶 路 径 48.3|85.5 

= 三 阶 路 径 28.6|86.0 

一 路 径 组 合 (二 阶 路 径 + 三 阶 路 径 ) 59.1|86.6 

0 合 著 关系 预测 的 最 佳 指标 是 综合 利用 二 阶 路 径 和 


三 阶 路 径 信息 的 路 径 组 合 指 标 , 表明 不 同 长 度 的 路 径 
均 对 合 著 关系 预测 产生 影响 ,在 文献 -作者 二 分 网 络 和 
合 著 网 络 中 ,路 径 组 合 指标 的 准确 率 和 AUC 值 均 是 
最 高 的 。 其 中 ,路 径 组 合 指标 的 准确 率 较 二 阶 路 径 指 
标高 出 10.8%, 提高 了 22.4%; 较 三 阶 路 径 指 标高 出 
30.5%, 提高 了 63.1%; 较 合 著 网 络 中 表现 最 好 的 资源 
分 配 指 标高 出 28.9%, 提高 了 95.7%; 较 合 著 网 络 中 表 
现 最 差 的 SimRank 指标 高 出 46.2%, 提高 了 3.58 倍 。 
AUC 值 的 变化 幅度 不 大 ， 对 指标 进行 宏观 评测 , 不 能 
对 合 著 关系 预测 指标 的 优 劣 进行 较 好 的 区 分 。 

路 径 组 合 指标 针对 特定 数据 集 通 过 机 器 学 习 方 法 
学 习 不 同 路 径 对 于 合 著 关系 预测 的 影响 , 使 得 其 成 为 
合 著 关 系 预测 的 最 佳 指标 , 证 实 了 权重 的 重要 作用 ; 
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同时 , 与 合 著 网 络 的 多 个 指标 进行 比较 证 实 不 同 长 度 
的 路 径 对 合 著 关 系 预 测 的 作用 并 非 一 成 不 变 ， 需 要 针 
对 特定 数据 集 进行 学 习 和 调整 。 在 文献 -作者 二 分 网 络 
和 合 著 网 络 中 ,路 径 组 合 指标 与 局 部 路 径 指 标 均 考 虑 
了 二 阶 路 径 和 三 阶 路 径 的 作用 , 不 同 的 是 ， 路径 组 合 
引 标 针对 特定 数据 集 学 习 了 不 同 路 径 对 合 著 关系 预测 
的 贡献 ， 而 局 部 路 径 指 标 则 使 用 经 验 值 (一 般 为 0.1 或 
0.01) 确 定 三 阶 路 径 相 对 于 二 阶 路 径 的 作用 。 表 2 和 表 
3 的 准确 率 结果 显示 ,路 径 组 合 指标 较 局 部 路 径 指 标 1 
高 出 38.3%， 提 高 了 1.84 倍 ; 较 局 部 路 径 指 标 2 高 出 
33.6%， 提 高 了 1.32 倍 ; 较 全 路 径 指标 高 出 33.6%, 提 
高 了 1.32 倍 。 这 些 结果 说 明 不 同 路 径 对 合 著 关 系 预 测 
具有 不 同 作 用 , 需要 根据 具体 数据 集 进 行 针对 性 调整 ， 
从 而 得 到 最 优 结果 , 并 且 局 部 路 径 指 标 和 全 路 径 指标 
所 采用 的 通用 权重 设置 并 不 适合 图 书 情报 领域 的 合 著 
关系 预测 , 需要 重新 进行 学 习 和 调整 。 

二 分 网 络 上 不 同 路 径 的 权重 证 实 二 阶 路 径 相对 
于 三 阶 路 径 更 重要 , 并且 不 同 数据 集 上 权重 取 值 不 
同 。 如 表 4 所 示 , 在 10 折 交 又 验 证 构建 的 二 分 网 络 
中 , 二 阶 路 径 和 三 阶 路 径 的 权重 数值 均 不 同 , 说 明 二 
阶 路 径 和 三 阶 路 径 对 于 合 著 关系 预测 的 贡献 需要 针 
对 特定 数据 集 进行 学 习 ， 并 没有 适用 于 多 个 数据 集 
的 最 住 经 验 值 。 与 此 同时 , 表 4 中 二 阶 路 径 的 权重 系 
数 明 显 高 于 三 阶 路 径 的 权重 系数 , 说 明 二 阶 路 径 对 
于 合 著 关系 预测 的 贡献 大 大 高 于 三 阶 路 径 ; 并 且 路 
径 组 合 指标 较 二 阶 路 径 指 标 仅 高 出 10.8%， 提 高 
22.4%, 证 实 共同 邻居 仍然 是 影响 合 著 关 系 发 生 的 最 
重要 影响 因素 。 
表 4 不 同 数据 集 构建 的 二 分 网 络 中 不 同 路 径 的 权重 系数 


Wh 


数据 集 二 阶 路 径 三 阶 路 径 
1 2.97273259 —0.05000465 
2 2.85770352 —0.0449394 
3 2.58017868 —0.0439814 
4 2.69195677 —0.04238217 
2 2.18140025 0.02673774 
6 2.97424309 —0.04686551 
7 2.73535841 —0.04429512 
8 2.79137504 0.00631618 
9 2.46963496 —0.03885842 
10 3.16311555 —0.04977438 


合 著 网 络 上 的 预测 指标 同样 证 实 共同 邻居 是 合 著 
关系 预测 的 最 重要 影响 因素 。 在 表 2 中 ,局 部 路 径 指 
标 和 全 路 径 指 标 均 比 共同 邻居 指标 的 准确 率 低 , 说 明 
三 阶 或 更 高 阶 路 径 对 于 合 著 关 系 预测 的 贡献 有 限 , 并 
且 使 用 固定 的 经 验 值 作为 多 阶 路 径 的 权重 时 ， 这 些 多 
阶 路 径 甚至 会 对 合 著 关系 预测 产生 负面 影响 。 值 得 注 
意 的 是 ,资源 分 配 指标 作为 共同 邻居 的 直接 改进 指标 ， 
使 用 共同 邻居 的 度 区 分 作者 对 于 合 著 关系 预测 的 影 
响 ， 它 的 准确 率 反而 较 共同 邻居 高 出 3.1%， 间接 证 实 
了 二 阶 路 径 对 于 合 著 关 系 预测 的 重要 影响 。 正 因为 如 
此 , 仍 有 大 量 研 究 从 不 同 角度 改进 共同 邻居 指标 , 并 
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取得 了 较 好 的 效果 M11, 
3.4” 合 著 关 系 预测 实例 

本 文选 取 合 著 网 络 中 的 最 佳 预测 指标 资源 分 配 指 
标 和 二 分 网 络 中 的 两 个 最 佳 指标 (二 阶 路 径 指标 和 路 
径 组 合 指标 ) 进 行 合 著 关 系 预 测 实例 说 明 , 并 列 出 排名 
前 10 的 合 著作 者 对 ， 如 表 5 所 示 。 其 中 ,黑色 和 斜体 字 
表示 预测 成 功 的 合 著 关系 , 未 着 重 标 出 的 为 预测 失败 
的 合 著 关系 。 由 于 实验 采用 的 是 10 折 交 叉 验 证 , 所 以 
仅 选 取 第 一 次 实验 结果 进行 说 明 , 对 应 的 指标 正确 率 
列 在 指标 之 后 ,如 “资源 分 配 指标 (31.9%)” 表 示 资 源 分 
配 指标 第 一 次 实验 的 正确 率 为 31.9%。 


表 5 三 种 指标 预测 出 的 排名 前 10 合 著 关系 

排名 资源 分 配 指标 (31.9%) 二 阶 路 径 指标 (49.2%) 路 径 组 合 指标 (60.8%) 
1 Detmer DE Steen EB Huntington P Jamali HR Zubair M Jayakanth F 
2 WangY Zhang 工 Nicholas D Rowlands I Poon EG Jenter CA 
3 Van Leeuwen TN Costas R Jamali HR Rowlands I LiJX ZhangZ 
4 Teo HH Wei KK Huntington P Williams P Chen YC Hwang SJ 
3 Nicholas D Rowlands I Bates DW Jenter CA Sia CL Benbasat I 
6 Narus SP Evans RS Markpin T Sombatsompop N Narus SP Evans RS 
7 Bakken S Lai AM Premkamolnetr N Markpin T Kaushal R Lo HG 
8 Accomazzi A Kurtz MJ Janssens F Thijs B Pan B Loriso L 
9 Bates DW Glaser J Lee JH Kang IS Detmer DE Steen EB 
10 Huff SM Staes CJ Fox EA Vemuri NS SheaS Cimino JJ 


由 表 5 可 看 出 ,三 种 指标 的 预测 效果 均 较 好 ,其 
中 资源 分 配 指标 成 功 预 测 出 8 对 合 著 关系 , 而 二 阶 路 
径 指 标 和 路 径 组 合 指标 均 成 功 预 测 出 所 有 10 对 合 著 
关系 ,说 明 路 径 组 合 指标 是 合 著 关 系 预 测 的 最 佳 指 
标 。 与 此 同时 , 在 排名 前 20 和 30 的 合 著 关系 预测 实 
例 中 , 资源 分 配 指标 分 别 成 功 预 测 出 10 对 和 14 对 合 
著 关系 ; 二 阶 路 径 指标 分 别 成 功 预 测 出 19 对 和 27 对 
合 著 关系 ; 路 径 组 合 指标 分 别 成 功 预测 出 19 对 和 29 
对 合 著 关系 。 该 结果 再 次 证 实 投影 为 合 著 网 络 过 程 中 
的 信息 丢失 对 合 著 关 系 预 测 的 负面 影响 以 及 二 分 网 络 
上 的 路 径 相关 指标 能 够 更 好 地 进行 合 著 关系 预测 。 
4 总 结 和 展望 

文献 -作者 二 分 网 络 在 投影 为 合 著 网 络 过 程 中 存 
在 信息 丢失 , 需要 直接 在 二 分 网 络 上 形成 适合 合 著 关 
系 预 测 的 指标 和 方法 ， 并 对 合 著 关 系 形成 的 原因 进行 
更 好 的 分 析 和 揭示 。 因 此 , 本 文 在 文献 -作者 二 分 网 络 


上 提出 了 一 种 基于 路 径 组 合 的 合 著 关 系 预测 指标 和 方 
法 ,以 提高 合 著 关 系 预 测 的 准确 率 和 合 著 关 系 的 可 解 
释 性 。 在 图 书 情报 领域 的 实验 证 实 , 二 分 网 络 上 的 二 
阶 路 径 指 标准 确 率 明显 高 于 合 著 网 络 上 的 共同 邻居 指 
标 , 并 通过 二 者 的 准确 率 差异 定量 表示 了 二 分 网 络 投 
影 为 合 著 网 络 过 程 中 的 信息 丢失 , 说 明 合 著 关 系 预测 
应 直接 在 文献 -作者 二 分 网 络 上 进行 ,以 提高 预测 准 
确 率 和 结果 可 解释 性 。 男 一 方面 , 综合 利用 二 阶 路 径 
和 三 阶 路 径 信 息 的 路 径 组 合 指标 大 大 优 于 其 他 指标 ， 
说 明 不 同 路 径 均 对 合 著 关 系 预测 产生 贡献 , 但 贡献 程 
度 需 要 针对 特定 数据 集 进行 学 习 ， 而 不 能 以 通用 的 经 
验 值 进行 指定 ; 同时 ,二 阶 路 径 对 合 著 关系 预测 的 贡 
献 明显 高 于 三 阶 路 径 , 说 明了 共同 邻居 仍 是 合 车 关系 
预测 的 最 重要 影响 因素 。 

在 图 书 情报 领域 的 实验 证 实 了 利用 路 径 组 合 指 标 
行 合 著 关 系 预测 的 有 效 性 , 但 还 存在 很 多 问题 需要 
一 步 研究 ,首先 , 四 阶 路 径 以 及 更 多 阶 路 径 对 于 合 
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车 关系 预测 的 贡献 还 需 进一步 明晰 ， 如 在 二 分 网 络 中 
提取 出 所 有 长 度 的 路 径 并 使 用 逻辑 回归 方法 学 习 每 种 
路 径 的 权重 系数 ,并 以 此 形成 全 路 径 组 合 指标 ,对 其 
准确 率 进行 计算 和 比较 。 其 次 , 基于 逻辑 回归 构建 路 
径 组 合 指 标的 方法 还 需 在 其 他 领域 进行 实验 ， 从 而 验 
证 该 方法 的 通用 性 ,其 他 的 机 需 学 习 方法 也 可 引入 到 
该 模型 中 进行 比较 。 最 后 , 该 方法 可 以 扩展 应 用 到 其 
他 类 型 的 二 分 网 络 中 ,如 专利 -发 明 人 二 分 网 络 上 的 
发 明 人 合作 关系 预测 、 微 博 - 用 户 二 分 网 络 上 的 用 户 扒 
荐 和 用 户 -商品 二 分 网 络 上 的 商品 推荐 等 。 
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Predicting Co-authorship with Combination of Paths in Paper-author 
Bipartite Networks 


Zhang Jinzhu! Wang Xiaomei Han Tao” 
(School of Economics and Management, Nanjing University of Science and Technology, Nanjing 210094, China 
8 
“(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 


Abstract: [Objective] This paper aims to predict co-authorship more effectively and reduce the information loss. 
[Methods] First, we constructed a paper-author bipartite network and its co-authorship counterpart in the field of library 
and information science. Second, we described the relationships among authors with the path-length of two and three 
from the bipartite network. Third, we used the logistic regression method to learn the influence of different factors. 
Finally, we predicted co-authorship in the paper-author bipartite network with various indictors. [Results] We found 
significant information loss in the change from the paper-author bipartite network to the co-authorship network. The 
logistic regression method was an appropriate way to learn the contributions of paths. The new indicators were more 
accurate and the predicted co-authorships could be interpreted more easily. [Limitations] We did not include the 
multiple paths methods to the present study and more research ls needed to examine the proposed method in other areas. 
[Conclusions] Co-authorship prediction should be conducted in the paper-author bipartite network to reduce the 
information loss. The paths combination indicator in the paper-author bipartite network might be the most effective 
method to predict co-authorship, which could be applied to the patent-inventor bipartite network. 

Keywords: Paper-author bipartite network Paths combination indicator Library and Information Science 
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美国 图 书馆 和 信息 资源 委员 会 获得 270 万 美元 的 项 目 资助 ， 以 保护 面临 风险 的 数据 记录 


Andrew W. Mellon 基金 会 向 美国 图 书馆 和 信息 资源 委员 会 (CLIR) 提 供 了 高 达 2,725,000 美元 的 项 目 资助 , 用 于 重新 计划 
将 具有 高 学 术 价值 的 “有 风险 ”的 音像 材料 进行 数字 化 。 该 项 目 将 在 2017 年 1 月 至 2018 年 9 月 期 间 举办 4 次 比赛 ,奖金 总 
额 高 达 230 万 美元 。 

为 制定 新 的 指导 方针 和 标准 , CLIR 将 于 2017 年 1 月 与 NEDCC 合作 发 布 一 项 试点 呼吁 以 寻求 建议 。 试 点 呼吁 将 仅 集 中 
于 磁带 音频 媒体 的 重新 格式 化 , 通过 NEDCC 的 扩展 音频 保存 服务 进行 数字 化 。CLIR 将 召集 一 个 独立 审查 小 组 进行 评估 。 
经 审核 后 ，CLIR 将 支付 总 额 高 达 150,000 美元 ,每 项 资助 从 5,000 美元 到 25,000 美元 不 等 ,直接 用 于 支付 NEDCC 提供 的 音 
频 重 新 格式 化 服务 的 费用 

之 后 , CLIR 将 发 起 一 系列 共 三 个 公开 竞赛 , 预计 在 两 年 内 发 放 215 万 美元 的 资金 。 三 项 公开 赛 的 征集 将 分 别 于 2017 年 6 
月 、2017 年 12 月 和 2018 年 5 月 发 出 ,公开 比赛 的 奖金 将 在 1 万 美元 至 5 万 美元 之 间 , 包括 音像 和 视听 内 容 的 重新 格式 化 所 
涉及 的 直接 费用 。 


(编译 自 : https://www.clir.org/about/news/pressrelease/recordings-at-risk) 
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